来自一个计算语言学的不完全指南

您所在的位置:网站首页 open compounds语言学 来自一个计算语言学的不完全指南

来自一个计算语言学的不完全指南

2023-06-28 11:02| 来源: 网络整理| 查看: 265

今天我们来尝试做一个简洁又有内容的 计算语言学不完全指南 ~

入门篇

一、什么是计算语言学?

有些读者纠结于“计算语言学(Computational Linguistics, CL)”、“自然语言处理(Natural Language Processing)”“语料库语言学(Corpus Linguistics, CL)”这几个术语或学科的关系。

其实这完全是没有必要的。你只需要掌握相关的知识和技能来解决实际的语言学或应用问题即可,不必要纠结这些概念。计算语言学下面还细分语音处理、文本分析、机器翻译、知识图谱等具体方向。

因为这三个术语或学科紧密相连,大致的区分按字面就能区分;但深入之后,它们有很多重合的部分。很多学者在理解上也是很有争议的。甚至有人认为,计算语言学和自然语言处理只是在语言学和计算机科学的不同称呼,实质相同。

二、计算语言学有哪些书籍可以推荐?

这是很多读者都关心的问题。下面简单列举基本入门的著作:

1.计算语言学,翁富良、 王野翊,中国社会科学出版社,2015这本书很薄,写作时间较早。包含数学等基础,可以入门。

2.计算语言学(修订版),刘颖,清华大学出版社,2014这本书很简单,介绍较全面,还算比较新。可以入门。

3.统计自然语言处理(第2版),宗成庆,清华大学出版社,2013内容非常全面,包含相关学科基础,适合基础入门。

4.Speech and Language Processing: An Introduction to Natural Language Processing,. Computational Linguistics, and Speech Recognition (Second Edition),Daniel Jurafsky, James H. Martin,Pearson,2014内容非常全面,包含相关学科基础,适合基础入门。

简单说,前两本比较简单,而后两本比较厚重。如果只是想了解下计算语言学,前两本任意一本即可。但若是想深入了解,请认真钻研后两本,你翻翻该书的目录就会惊叹!

此外,要指出的是,Speech and Language https://web.stanford.edu/~jurafsky/slp3/。

进阶篇

三、计算语言学要学一门编程语言吗?

一般来讲,掌握一门编程语言对学科的理解会加深许多,也会更容易理解之后模型、算法的设计和原理。

如果打算掌握一门编程语言,对语言学读者而言,Python是比较友好的高级编程语言,它的语法简单,容易掌握,但是功能特别丰富!从1+1的数字运算,到当下最火的机器学习,Python都能承担。如果你非常侧重语言统计,也许有些教师也会用R语言、SPSS等。

相比而言,R的自由度比SPSS高,命令行界面,可能需要编程和数据结构基础;但SPSS是图形界面,操作简单。

对于Python语言的学习,我们之前推送过北京理工大学的系列课程,适合初学者掌握。

课程资源 | Python语言系列专题MOOC

从基础语言到相关应用,一应俱全。

四、入门之后如何进阶?

可能有些读者追求卓越,这非常励志。

此时,你需要一些相关学科的基础,具体来讲就是语言学基础(或其他应用领域),数学基础,英语基础,实践基础,赶潮流的基础。

语言学基础(或其他应用领域)。你要解决语言学问题(或其他应用领域),就要语言学(或其他应用领域)的基础,不然找不到题目展示你无与伦比才华的舞台。

数学基础。无论是最新的各种神经网络算法,还是入门级的因马尔科夫模型,都需要数学来帮助理解,只是程度要求不同。一般来讲,微积分、概率统计、线性代数最好掌握一些。

英语基础。因为汉语世界不太容易产生新的理论、算法和技术,所以最新的前言研究大多用外语,特别是英语写就。如果你想了解前沿,掌握英语显得很必要。

实践基础。简单说,就是多动手练习。虽然现在很多应用,大多都是站在别人的肩膀上,不自己从头开始造轮子。但还是建议多练练,理解和应用起来才得心应手,万一能改进下呢。

赶潮流的基础。众所周知,当下新理论、新算法、新技术层出不穷,日新月异。上个世纪还是基于规则的方法占主流,而现在早已是基于统计的天下,或者规则与统计结合的方法,但更侧重统计。所以要应时而动,及时赶赶潮流,结合一下3D、VR什么的,蹭蹭热点啥的。

一般来讲,进阶要找到自己感兴趣的方向,然后自己深入下去。方向不同,路径各异,很难有通用的。

如何做到,往下看 ↓ 。

五、听说最近机器学习有一统天下之势,有哪些书籍可以推荐?

在这方面汉语世界有两本比较经典:

1.统计学习方法,李航,清华大学出版社,2012这本书将精华浓缩,可能不太容易理解。

2.机器学习,周志华,清华大学出版社,2016最新宝书,经典教材请认真阅读。

同时也可以去edx,coursera上学习在线课程,有很多顶级院校、顶级大牛的课程,此处作者有些懒~

院校篇

六、有哪些院系招收计算语言学硕博士生呢?

很多读者都非常关心这个问题,多次询问。

国内招收计算语言学的学校非常少很多都是在计算机学科下招生。据我所知的文科院系如下(可能有疏漏,仅供参考),大多同时招收硕博士,请到具体的网站查询。

北京大学中文系,清华大学中文系,北京师范大学汉语文化学院,北京语言大学信息科学学院,中国传媒大学文学院,上海师范大学人文与传播学院,南京师范大学文学院,江苏师范大学语言科学与艺术学院……

国外的项目相比而言会多一些,之前我们推送了美国前20的计算语言学项目,大多同时招收硕博士,可参看。

The 20 Best Computational Linguistics Graduate Programs in the U.S.

美国的计算语言学同样是有的在语言学系,比如斯坦福大学、麻省理工学院,也有一些在计算机系。

七、计算语言学培养方案的有什么问题吗?

有的。一个问题就是在语言学系的学生要学一些看似没有用、或许以后也不会用的理论语言学的内容。不可以不学,因为它们很可能是必修课。

八、计算语言学如何追踪前沿研究?

非常好的问题,对于这个问题,刘知远有篇文章介绍,请认真阅读。

初学者如何查阅自然语言处理(NLP)领域学术资料,http://blog.sina.com.cn/s/blog_574a437f01019poo.html

撮要如下:

1.关注两个组织,ACL和CCL,分别是国际语言学学会(https://aclweb.org,有wiki https://aclweb.org/aclwiki,有期刊Computational Linguistics、Transactions of ACL)和中国计算语言学学会(http://cips-cl.org).

2.关注一个博客,美国Hal Daumé III维护了一个natural language processing的博客(http://nlpers.blogspot.com),经常评论最新学术动态。

3.善用搜索引擎,包括学术搜索引擎、通用搜索引擎。

其他篇

九、纯语言学学生能学计算语言学吗?

可以,只要你愿意努力一下下。

而且,浸淫久了,就会发现很多东西换汤不换药,换药不换汤,太阳底下并没有多少新鲜事。

十、语言学学生学计算语言学和NLP竞争有优势吗?

看你学得怎样。普遍情况是没有。

十一、语言学学生学习计算语言学有什么好处吗?

有。掌握一种有关计算的新方法,用量化的方式认识世界。

相比而言,此领域起步较晚,文献资料有限,不必像理论语言学那样需要大量而深入的阅读和基础。

提升自己自主解决学术和生活中问题的能力。

十二、我还能问其他相关不相关的问题吗?

可以,请留言。但我们会选择简单的回答~

更新记录:

2018/3/23,改正翁富良书的出版年份及斯坦福网站链接。感谢 @林峰 @郁宸宇



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3